The development of deep learning models in medical image analysis is majorly limited by the lack of large-sized and well-annotated datasets. Unsupervised learning does not require labels and is more suitable for solving medical image analysis problems. However, most of the current unsupervised learning methods need to be applied to large datasets. To make unsupervised learning applicable to small datasets, we proposed Swin MAE, which is a masked autoencoder with Swin Transformer as its backbone. Even on a dataset of only a few thousand medical images and without using any pre-trained models, Swin MAE is still able to learn useful semantic features purely from images. It can equal or even slightly outperform the supervised model obtained by Swin Transformer trained on ImageNet in terms of the transfer learning results of downstream tasks. The code will be publicly available soon.
translated by 谷歌翻译
阴影对于逼真的图像合成至关重要。基于物理的阴影渲染方法需要3D几何形状,这并不总是可用。基于深度学习的阴影综合方法从光信息到对象的阴影中学习映射,而无需明确建模阴影几何形状。尽管如此,它们仍然缺乏控制,并且容易出现视觉伪像。我们介绍了Pixel Heigh,这是一种新颖的几何表示,它编码对象,地面和相机姿势之间的相关性。像素高度可以根据3D几何形状计算,并在2D图像上手动注释,也可以通过有监督的方法从单视RGB图像中预测。它可用于根据投影几何形状计算2D图像中的硬阴影,从而精确控制阴影的方向和形状。此外,我们提出了一个数据驱动的软影子生成器,以基于软性输入参数将软性应用于硬阴影。定性和定量评估表明,所提出的像素高度显着提高了阴影产生的质量,同时允许可控性。
translated by 谷歌翻译
揭开多个代理之间的相互作用与过去的轨迹之间的相互作用至关重要。但是,以前的作品主要考虑与有限的关系推理的静态,成对的相互作用。为了促进更全面的互动建模和关系推理,我们提出了Dyngroupnet,这是一个动态群体感知的网络,i)可以在高度动态的场景中建模时间变化的交互; ii)捕获配对和小组互动; iii)理由互动强度和类别没有直接监督。基于Dyngroupnet,我们进一步设计了一个预测系统,以预测具有动态关系推理的社会合理轨迹。提出的预测系统利用高斯混合模型,多个抽样和预测细化,分别促进预测多样性,训练稳定性和轨迹平滑度。广泛的实验表明:1)dyngroupnet可以捕获随时间变化的群体行为,在轨迹预测过程中推断时间变化的交互类别和相互作用强度,而无需在物理模拟数据集上进行任何关系监督; 2)dyngroupnet优于最先进的轨迹预测方法,其显着改善22.6%/28.0%,26.9%/34.9%,5.1%/13.0%的ADE/FDE在NBA,NFL足球和SDD Datasets上的ADE/FDE并在ETH-COY数据集上实现最先进的性能。
translated by 谷歌翻译
图形神经网络(GNN)在各种图挖掘任务中取得了巨大的成功。但是,当GNN堆叠着许多层时,总是观察到急剧性能降解。结果,大多数GNN仅具有浅层建筑,这限制了它们的表现力和对深社区的开发。最近的研究将深度GNN的性能降低归因于\ textit {过度平滑}的问题。在本文中,我们将传统的图形卷积操作分为两个独立操作:\ textit {passagation}(\ textbf {p})和\ textit {transformation}(\ textbf {t})。可以分为传播深度($ d_p $)和转换深度($ d_t $)。通过广泛的实验,我们发现深度GNNS性能下降的主要原因是\ textit {model dygradation}问题是由大$ d_t $而不是\ textit {过度平滑}问题引起的,主要是由大$ d_p $引起的。 。此外,我们提出\ textIt {自适应初始残留}(air),一个与各种GNN架构兼容的插件模块,以减轻\ textit {model {model dradation degradation}问题和\ textit {textit {过度敏感}问题同时。六个现实世界数据集的实验结果表明,配备空气的GNN胜过大多数具有浅层建筑的GNN,这是由于大型$ d_p $和$ d_t $的好处,而与空气相关的时间成本则可以忽略。
translated by 谷歌翻译
图形神经网络(GNN)在许多基于图的应用程序中取得了巨大成功。但是,巨大的尺寸和高稀疏度的图表阻碍了其在工业场景下的应用。尽管为大规模图提出了一些可扩展的GNN,但它们为每个节点采用固定的$ k $ hop邻域,因此在稀疏区域内采用大型繁殖深度时面临过度光滑的问题。为了解决上述问题,我们提出了一种新的GNN体系结构 - 图形注意多层感知器(GAMLP),该架构可以捕获不同图形知识范围之间的基本相关性。我们已经与天使平台部署了GAMLP,并进一步评估了现实世界数据集和大规模工业数据集的GAMLP。这14个图数据集的广泛实验表明,GAMLP在享有高可扩展性和效率的同时,达到了最先进的性能。具体来说,在我们的大规模腾讯视频数据集上的预测准确性方面,它的表现优于1.3 \%,同时达到了高达$ 50 \ times $ triending的速度。此外,它在开放图基准的最大同质和异质图(即OGBN-PAPERS100M和OGBN-MAG)的排行榜上排名第一。
translated by 谷歌翻译
腮腺肿瘤约占头颈肿瘤的2%至10%。术前肿瘤定位,鉴别诊断以及随后选择适当的腮腺肿瘤治疗方法。然而,这些肿瘤的相对稀有性和高度分散的组织类型使基于术前放射线学对这种肿瘤病变的细微差异诊断造成了未满足的需求。最近,深度学习方法发展迅速,尤其是变形金刚在计算机视觉中击败了传统的卷积神经网络。为计算机视觉任务提出了许多新的基于变压器的网络。在这项研究中,收集了多中心多模束MRI图像。使用了基于变压器的SWIN-UNET。将搅拌,T1和T2模态的MRI图像合并为三通道数据以训练网络。我们实现了对腮腺和肿瘤感兴趣区域的分割。测试集上的模型DSC为88.63%,MPA为99.31%,MIOU为83.99%,HD为3.04。然后在本文中设计了一系列比较实验,以进一步验证算法的分割性能。
translated by 谷歌翻译
大规模数据集在计算机视觉中起着至关重要的作用。但是当前的数据集盲目注释而没有与样品区分的区分,从而使数据收集效率低下且不计。开放的问题是如何积极地构建大型数据集。尽管先进的主动学习算法可能是答案,但我们在实验上发现它们在分发数据广泛的现实注释方案中是la脚的。因此,这项工作为现实的数据集注释提供了一个新颖的主动学习框架。配备了此框架,我们构建了一个高质量的视觉数据集 - 竹子,由69m的图像分类注释,带有119K类别,带有809个类别的28m对象边界框注释。我们通过从几个知识库中整合的层次分类法来组织这些类别。分类注释比Imagenet22K大四倍,检测的注释比Object365大三倍。与ImagEnet22K和Objects365相比,预先训练的竹子在各种下游任务中实现了卓越的性能(分类的6.2%增长,检测到2.1%的增长)。我们认为,我们的积极学习框架和竹子对于将来的工作至关重要。
translated by 谷歌翻译
在本文中,我们在学习多层感知(MLPS)中发现了两相现象。即,在第一阶段,培训损失不会显着降低,但不同样本之间的特征的相似性不断增加,这伤害了特征多样性。我们在MLP的学习动态方面解释了这样的两阶段现象。此外,我们提出了两个归一化操作来消除两相现象,这避免了特征多样性的减少,并加快了培训过程。
translated by 谷歌翻译
Graph神经网络(GNN)最近在许多基于图的应用程序中都实现了最先进的性能。尽管具有很高的表现力,但他们通常需要在多个培训时期进行昂贵的递归邻里扩展,并面临可伸缩性问题。此外,它们中的大多数是不灵活的,因为它们仅限于固定跳跃社区,并且对不同节点的实际接受场需求不敏感。我们通过引入可扩展且灵活的图表多层感知器(GAMLP)来规避这些限制。随着非线性转化和特征传播的分离,GAMLP通过以预先计算的方式执行传播程序来显着提高可伸缩性和效率。有了三个原则的接受场注意力,GAMLP中的每个节点都具有灵活性和适应性,以利用接收场的不同尺寸的传播特征。我们对三个大型开放图基准(例如OGBN-PAPERS100M,OGBN产品和OGBN-MAG)进行了广泛的评估,这表明GAMLP不仅可以实现前面的性能,而且还提供了较高的可扩展性和效率。
translated by 谷歌翻译
在这项工作中,我们解决了主动摄像机定位的问题,该问题可积极控制相机运动以实现精确的相机姿势。过去的解决方案主要基于马尔可夫定位,从而减少了定位的位置摄像头的不确定性。这些方法将摄像机定位在离散姿势空间中,并且对定位驱动的场景属性不可知,从而限制了相机姿势的精度。我们建议通过由被动和主动定位模块组成的新型活动相机定位算法克服这些局限性。前者通过建立对点的摄像头通信来优化连续姿势空间中的相机姿势。后者明确对场景和相机不确定性组件进行建模,以计划正确的摄像头姿势估计的正确路径。我们在合成和扫描现实世界室内场景的挑战性本地化场景上验证了算法。实验结果表明,我们的算法表现优于基于马尔可夫定位的最先进的方法和优质相机姿势精度的其他方法。代码和数据在https://github.com/qhfang/accurateacl上发布。
translated by 谷歌翻译